通过改善安全性,效率和移动性,自动车辆(AVS)的快速发展持有运输系统的巨大潜力。然而,通过AVS被采用的这些影响的进展尚不清楚。众多技术挑战是出于分析自治的部分采用:部分控制和观察,多车辆互动以及现实世界网络代表的纯粹场景的目标。本文研究了近期AV影响,研究了深度加强学习(RL)在低AV采用政权中克服了这些挑战的适用性。提出了一个模块化学习框架,它利用深rl来解决复杂的交通动态。模块组成用于捕获常见的交通现象(停止和转运交通拥堵,车道更改,交叉点)。在系统级速度方面,发现了学习的控制法则改善人类驾驶绩效,高达57%,只有4-7%的AVS。此外,在单线交通中,发现只有局部观察的小型神经网络控制规律消除了停止和转移的流量 - 超过所有已知的基于模型的控制器,以实现近乎最佳性能 - 并概括为OUT-分销交通密度。
translated by 谷歌翻译
随着自动组件比例越来越多的新兴车辆系统提供了最佳控制的机会,以减轻交通拥堵和提高效率。最近有兴趣将深入增强学习(DRL)应用于这些非线性动力学系统,以自动设计有效的控制策略。尽管DRL是无模型的概念优势,但研究通常仍依赖于对特定车辆系统的艰苦训练设置。这是对各种车辆和机动性系统有效分析的关键挑战。为此,本文贡献了一种简化的用于车辆微仿真的方法,并以最少的手动设计发现了高性能控制策略。提出了一种可变的代理,多任务方法,以优化车辆部分观察到的马尔可夫决策过程。该方法在混合自治交通系统上进行了实验验证,该系统是自动化的。在六种不同的开放或封闭交通系统的所有配置中都可以观察到经验改进,通常比人类驾驶基线的15-60%。该研究揭示了许多紧急行为类似于缓解波浪,交通信号传导和坡道计量。最后,对新兴行为进行了分析,以产生可解释的控制策略,这些控制策略已通过学习的控制策略进行了验证。
translated by 谷歌翻译
时间上解耦政策的层次结构提出了一种有希望的方法,可以在复杂的长期计划问题中实现结构化探索。为了完全实现这种方法,需要一种端到端的培训范式。然而,由于在层次结构中的目标分配和目标级别之间的相互作用,挑战,这些多级政策的培训已经有限。在本文中,我们将策略优化过程视为多智能agence过程。这使我们能够借鉴多代理RL的沟通与合作之间的联系,并展示了对整个政策培训绩效的子政策之间增加的合作的好处。通过修改目标函数和后续级别的更高级别政策,我们介绍了一种简单但有效的技术,可以通过修改目标函数和随后的渐变来诱导级别合作。关于各种模拟机器人和交通管制任务的实验结果表明,诱导合作导致更强大的表现,并提高了一套艰难的长时间地平任务的样本效率。我们还发现使用我们的方法训练的目标条件调节政策显示更好地转移到新任务,突出了我们在学习任务不可行的较低级别行为方面的方法的好处。视频和代码可在:https://sites.google.com/berkeley.edu/cooperative-hrl。
translated by 谷歌翻译